Quantized GAN for Complex Music Generation from Dance Videos
We present Dance2Music-GAN (D2M-GAN), a novel adversarial multi-modal framework that generates complex musical samples conditioned on dance videos. Our proposed framework takes dance video frames and human body motion as input, and learns to generate music samples that plausibly accompany the corresponding input. Unlike most existing conditional music generation works that generate specific types of mono-instrumental sounds using symbolic audio representations (e.g., MIDI), and that heavily rely on pre-defined musical synthesizers, in this work we generate dance music in complex styles (e.g., pop, breakdancing, etc.) by employing a Vector Quantized (VQ) audio representation, and leverage both its generality and the high abstraction capacity of its symbolic and continuous counterparts. By performing an extensive set of experiments on multiple datasets, and following a comprehensive evaluation protocol, we assess the generative quality of our approach against several alternatives. The quantitative results, which measure the music consistency, beats correspondence, and music diversity, clearly demonstrate the effectiveness of our proposed method. Last but not least, we curate a challenging dance-music dataset of in-the-wild TikTok videos, which we use to further demonstrate the efficacy of our approach in real-world applications - and which we hope to serve as a starting point for relevant future research.
本論文では、ダンス映像を条件として複雑な音楽サンプルを生成する、新しい敵対的マルチモーダルフレームワークDance2M-GAN (D2M-GAN)を提案する。提案するフレームワークは、ダンス映像フレームと人体モーションを入力とし、対応する入力にもっともらしく寄り添う音楽サンプルを生成するよう学習する。本論文では、Vector Quantized (VQ) オーディオ表現を用いて、複雑なスタイルのダンス音楽(例:ポップス、ブレイクダンスなど)を生成し、その一般性と記号・連続表現の高い抽象性の両方を活用することによって、既存の多くの条件付き音楽生成手法とは異なる。複数のデータセットに対して広範な実験を行い、包括的な評価プロトコルに従うことで、いくつかの代替案に対する我々のアプローチの生成の質を評価する。音楽の一貫性、拍子対応、音楽の多様性を測定する定量的結果は、提案手法の有効性を明確に示している。このデータセットを用いて、実世界のアプリケーションにおける我々のアプローチの有効性をさらに実証し、関連する将来の研究の出発点となることを期待するものである。